第四章关联规则

填空题

1.关联规则的经典算法包括 apriori 和 fp-growth，其中 fp-growth 的效率更高。（另）

简答题

4.什么是关联规则？关联规则的应用有哪些？（guo）（另）

答：
关联规则挖掘最初由 R.Agrawal 等人提出，用来发现超级市场中用户购买的商品之间的隐含关联关系，并用规则的形式表示出来，称为关联规则 (Association Rule)。
关联规则除了可以发现超市购物中隐含的关联关系之外，还可以应用于其他很多领域。关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。

5.关联规则的分类有哪些？关联规则挖掘的步骤包括什么？（guo）

答：
关联规则的分类：
（1）基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。
（2）基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。
（3）基于规则中处理的变量的类型不同，关联规则可以分为布尔型和数值型。

关联规则挖掘的步骤：
（1）找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集；
（2）利用频繁项集生成所需要的关联规则，根据用户设定的最小可信度进行取舍，产生强关联规则。

6.设定 sup_min=50%，conf_min=50% 使用 Apriori 算法完成表 4.8 所示的数据集关联规则的挖掘。（guo）

![image1](/img/user/resources/attachments/image1-6 2.jpeg)
答：
规则：c=>a，a=>c。

请简述数据挖掘中关联规则 Apriori 算法的思想。（另）

答：
Apriori 算法的基本思想是通过对数据库的多次扫描来计算项集的支持度，发现所有的频繁项集从而生成关联规则。
基本思想是通过多次扫描数据集，产生长度不同的频繁集。具体实现过程是首先产生 1- 频繁集 L1，在此基础上,首先产生 1- 频繁集 L1，在此基础上经过连接、修剪产生 2 频繁集 L2,直到无法产生新的频繁集则算法终止。这里在第 k 次循环中，也就是在产生 k- 频繁集 Lk 的过程中,首先产生 k- 候选频繁集的集合 Ck，简称候选集。Ck 中的每一个项集是对两个只有一个项不同的属于 Lk-1 的频繁集连接产生，Ck 进行修剪，产生对应的 Lk。

请比较 PCA 和 IDA 的区别（另）

答：
PCA 是无监督（训练样本无标签）的，LDA 是有监督（训练样本有标签）的；
PCA 是去掉原始数据冗余的维度，LDA 是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离。
LDA 最多可以降到 k-1 维（k 是训练样本的类别数量，k-1 是因为最后一维的均值可以由前面的 k-1 维的均值表示）；
LDA 可能会过拟合数据。

请分析特征选择和特征提取有何区别?（另）

答：
特征选择的目标是从原始的 d 个特征中选择 k 个特征。也就是说，特征选择后的特征是原来特征的一个子集。
特征抽取的目标是根据原始的 d 个特征的组合形成 k 个新的特征，即将数据从 d 维空间映射到 k 维空间。特征抽取后的新特征是原来特征的一个映射。